使用机器学习(ML)语言模型(LMS)来监视内容在线上升。对于有毒文本识别,使用由注释器标记的数据集来执行任务特定的微调,这些模型是在努力区分攻击性和正常内容之间的基础标签的数据集。这些项目随着时间的推移,大型数据集的开发,改进和扩展,并对自然语言进行了贡献。尽管取得了成就,但现有的证据表明,在这些数据集上建立的ML模型并不总是导致理想的结果。因此,使用设计科学研究(DSR)方法,该研究审查了选定的有毒文本数据集,其目标是在一些内在的问题上脱落,并有助于讨论导航现有和未来项目的这些挑战。为了实现该研究的目标,我们重新注释了来自三个有毒文本数据集的样本,并发现一个用于注释有毒文本样本的多标签方法可以有助于提高数据集质量。虽然这种方法可能不会改善互联网间协议的传统指标,但它可能更好地捕获对注释器中的上下文和多样性的依赖。我们讨论了这些结果对理论和实践的影响。
translated by 谷歌翻译
两种样本测试评估两个样品是否是相同分布(零假设)或两种不同分布(替代假设)的实现。在传统的本问题的制定中,统计学家可以访问测量(特征变量)和组变量(标签变量)。但是,在几个重要的应用程序中,可以轻松测量特征变量,但二进制标签变量是未知的并且获得昂贵的。在本文中,我们考虑了经典的两个样本测试问题的这一重要变化,并将其构成,作为在执行两个样本测试的服务中仅获得少量样品的标签的问题。我们设计了一个标签高效的三阶段框架:首先,分类器培训,采用均匀标记为模拟标签的后验概率;其次,将一个创新的查询计划被称为\ emph {bimodal查询}用于查询来自两个类别的样本标签,最大的后验概率,最后,对查询样本进行了经典的弗里德曼-RAFSKY(FR)两样测试。我们的理论分析表明,在合理的条件下,双峰查询对于FR测试是最佳的,并且三阶段框架控制I误差。对合成,基准和应用程序特定数据集进行的广泛实验表明,三阶段框架在控制I错误的统一查询和确定的基于标签上的统一查询和确定性的查询中的II型误差减少。
translated by 谷歌翻译
向数据中心AI的转换需要从数学和实现立场重新探测数据概念,以获取统一的数据中心学习包。为此,这项工作提出了由数据的分类和科钦概念提供的统一原则,并探讨了这些原则在以数据为中心的AI转型中的重要性。在分类概念中,数据被视为我们通过态度来保护这种结构的数学结构。对于Cochain概念,可以将数据视为在感兴趣的离散域中定义的函数,并通过运算符进行行为。虽然这些概念几乎正交,但它们提供了查看数据的统一定义,最终影响机器学习包的开发,实现和使用从业者使用的方式。
translated by 谷歌翻译
Next-generation sequencing technologies have enhanced the scope of Internet-of-Things (IoT) to include genomics for personalized medicine through the increased availability of an abundance of genome data collected from heterogeneous sources at a reduced cost. Given the sheer magnitude of the collected data and the significant challenges offered by the presence of highly similar genomic structure across species, there is a need for robust, scalable analysis platforms to extract actionable knowledge such as the presence of potentially zoonotic pathogens. The emergence of zoonotic diseases from novel pathogens, such as the influenza virus in 1918 and SARS-CoV-2 in 2019 that can jump species barriers and lead to pandemic underscores the need for scalable metagenome analysis. In this work, we propose MG2Vec, a deep learning-based solution that uses the transformer network as its backbone, to learn robust features from raw metagenome sequences for downstream biomedical tasks such as targeted and generalized pathogen detection. Extensive experiments on four increasingly challenging, yet realistic diagnostic settings, show that the proposed approach can help detect pathogens from uncurated, real-world clinical samples with minimal human supervision in the form of labels. Further, we demonstrate that the learned representations can generalize to completely unrelated pathogens across diseases and species for large-scale metagenome analysis. We provide a comprehensive evaluation of a novel representation learning framework for metagenome-based disease diagnostics with deep learning and provide a way forward for extracting and using robust vector representations from low-cost next generation sequencing to develop generalizable diagnostic tools.
translated by 谷歌翻译
本文研究了在因果图形模型中设计最佳干预措施序列的问题,以最大程度地减少对事后最佳干预的累积后悔。自然,这是一个因果匪徒问题。重点是线性结构方程模型(SEM)和软干预措施的因果匪徒。假定该图的结构是已知的,并且具有$ n $节点。每个节点都假定使用两种线性机制,一种软干预和一种观察性,产生了$ 2^n $可能的干预措施。现有的因果匪徒算法假设,至少完全指定了奖励节点父母的介入分布。但是,有$ 2^n $这样的分布(一个与每个干预措施相对应),即使在中等尺寸的图中也变得越来越高。本文分配了知道这些分布的假设。提出了两种算法,用于常见者(基于UCB)和贝叶斯(基于汤普森采样)的设置。这些算法的关键思想是避免直接估计$ 2^n $奖励分布,而是估算完全指定SEMS($ n $线性)的参数,并使用它们来计算奖励。在这两种算法中,在噪声和参数空间的有界假设下,累积遗憾的是$ \ tilde {\ cal o}(((2d)^l l \ sqrt {t})$,其中$ d $是图的最高度和$ l $是其最长因果路径的长度。
translated by 谷歌翻译
在此演示论文中,我们设计和原型Rhythmedge是一种低成本,基于深度学习的无接触系统,用于常规的HR监控应用。通过促进无接触性质,实时/离线操作,廉价和可用的传感组件以及计算设备,节奏对现有方法的好处。我们的Rhythmedge系统是可移植的,可以轻松部署,以在中等控制的室内或室外环境中可靠的人力资源估计。 Rhythmedge通过检测面部视频(远程光摄影学; RPPG)的血量变化来测量人力资源,并使用现成的市售资源可限制的边缘平台和摄像机进行即时评估。我们通过将Rhythmedge的可伸缩性,灵活性和兼容性部署到不同的体系结构的三个资源约束平台上(Nvidia Jetson Nano,Google Coral Development Board,Raspberry Pi)和三个异质摄像机,可与不同的体系结构进行部署,并证明了Rhythmedge的可伸缩性和兼容性。摄像头,动作摄像头和DSLR)。 Rhythmedge进一步存储纵向心血管信息,并为用户提供即时通知。我们通过分析其运行时,内存和功率使用情况来彻底测试三个边缘计算平台的原型稳定性,延迟和可行性。
translated by 谷歌翻译
培训生成模型捕获数据的丰富语义并解释由此类模型编码的潜在表示,这是无监督学习的非常重要的问题。在这项工作中,我们提供了一种简单的算法,该算法依赖于对预训练的生成自动编码器的潜在代码进行扰动实验,以发现生成模型暗示的因果图。我们利用预训练的属性分类器并执行扰动实验,以检查给定潜在变量对属性子集的影响。鉴于此,我们表明人们可以拟合有效的因果图,该图形在被视为外源变量的潜在代码和被视为观察到的变量的属性之间建模结构方程模型。一个有趣的方面是,单个潜在变量控制属性的多个重叠子集,与试图实现完全独立性的常规方法不同。使用在肽序列数据集上训练的基于RNN的预先训练的生成自动编码器,我们证明了从各种属性和潜在代码之间的算法中学习的因果图可用于预测看不见的序列的特定属性。我们比较了对所有可用属性训练的预测模型,或者仅在Markov毯子中仅培训的模型,并从经验上表明,在无监督和监督的制度中,通常使用依赖Markov blanket属性的预测变量,以确保更好的分布序列。 。
translated by 谷歌翻译
我们的商品设备中的大量传感器为传感器融合的跟踪提供了丰富的基板。然而,当今的解决方案无法在实用的日常环境中提供多个代理商的强大和高跟踪精度,这是沉浸式和协作应用程序未来的核心。这可以归因于这些融合解决方案利用多样性的有限范围,从而阻止它们迎合准确性,鲁棒性(不同的环境条件)和可伸缩性(多个试剂)的多个维度。在这项工作中,我们通过将双层多样性的概念引入多代理跟踪中的传感器融合问题来朝着这一目标迈出重要的一步。我们证明,互补跟踪方式的融合,被动/亲戚(例如,视觉探测法)和主动/绝对跟踪(例如,基础架构辅助的RF定位)提供了一个关键的多样性第一层,可带来可伸缩性,而第二层的多样性则是多样性的。在于融合的方法论,我们将算法(鲁棒性)和数据驱动(用于准确性)方法汇集在一起​​。 Rovar是这种双层多样性方法的实施例,使用算法和数据驱动技术智能地参与跨模式信息,共同承担着准确跟踪野外多种代理的负担。广泛的评估揭示了Rovar在跟踪准确性(中位数),鲁棒性(在看不见的环境中),轻重量(在移动平台上实时运行,例如Jetson Nano/tx2),以启用实用的多功能多多数,以启用实用的多功能,以实用代理在日常环境中的沉浸式应用。
translated by 谷歌翻译
联合学习(FL)启用了分布式系统中用户设备(客户端)上的最新自动语音识别(ASR)模型,从而阻止将原始用户数据传输到中央服务器。 ASR实用采用实践采用面临的主要挑战是在客户身上获得地面真相标签。现有的方法依靠客户手动抄录演讲,这对于获得大型培训语料库是不切实际的。一个有希望的替代方法是使用半/自制的学习方法来利用未标记的用户数据。为此,我们提出了Fednst,这是一种使用私人和未标记的用户数据训练分布式ASR模型的新颖方法。我们探索Fednst的各个方面,例如具有不同比例的标记和未标记数据的培训模型,并评估1173个模拟客户端的建议方法。在LibrisPeech上评估Fednst,其中960个小时的语音数据被平均分为服务器(标签)和客户端(未标记)数据,显示了仅对服务器数据训练的监督基线,相对单词错误率降低}(WERR)22.5%。
translated by 谷歌翻译
在使用不同的培训环境展示时,获得机器学习任务的可推广解决方案的一种方法是找到数据的\ textit {不变表示}。这些是协变量的表示形式,以至于表示形式的最佳模型在培训环境之间是不变的。在线性结构方程模型(SEMS)的背景下,不变表示可能使我们能够以分布范围的保证(即SEM中的干预措施都有牢固的模型学习模型。为了解决{\ em有限示例}设置中不变的表示问题,我们考虑$ \ epsilon $ approximate不变性的概念。我们研究以下问题:如果表示给定数量的培训干预措施大致相当不变,那么在更大的看不见的SEMS集合中,它是否会继续大致不变?这种较大的SEM集合是通过参数化的干预措施来生成的。受PAC学习的启发,我们获得了有限样本的分布概括,保证了近似不变性,该概述\ textit {概率}在没有忠实假设的线性SEMS家族上。我们的结果表明,当干预站点仅限于恒定大小的子集的恒定限制节点的恒定子集时,界限不会在环境维度上扩展。我们还展示了如何将结果扩展到结合潜在变量的线性间接观察模型。
translated by 谷歌翻译